ter 16 jul 2019

Planilhas

Os programas de planilhas eletrônicas são interfaces gráficas muito úteis para projetar tabelas de dados e lidar com funções básicas de controle de qualidade de dados.

Uso prudente de planilhas

Planilhas são boas para entrada de dados E por isso, temos muitos dados em planilhas.

  • Alguém tem dados salvos em formato de texto?

Mas

  • Muitas vezes são utilizadas também para:

    • criar tabelas de dados para publicações;

    • gerar estatísticas resumidas;

    • fazer figuras.

  • criar tabelas de dados para publicações

[AFFE, H. M. J. et al. Nitzschia martiana (CA Agardh) Van Heurck (Bacillariophyceae): distribution modelling and new records along the Brazilian coast. Diatom Research, v. 34, n. 1, p. 23-31, 2019.] link

[VIDAL, C. Y. et al. Heterogenization of remaining biodiversity in fragmented tropical forests across agricultural landscapes. bioRxiv, p. 629782, 2019.] link

Recomendação é usar um editor de texto

  • gerar estatísticas resumidas

  • fazer figuras

Ainda assim ….

há circunstâncias em que você pode querer usar um programa de planilha para produzir cálculos ou números “rápidos e sujos”, e a limpeza de dados ajudará você a usar alguns desses recursos.

Aqui, vamos supor que você provavelmente está usando o Excel como seu programa de planilha principal - há outros (e.g. Calc do OpenOffice) e sua funcionalidade é semelhante, mas o Excel parece ser o programa mais usado por biólogos.

Hoje, vamos falar sobre:

  • Formatação tabelas de dados em planilhas

  • Problemas de formatação

  • Exportando dados

  • Controle de qualidade

Uma boa organização de dados é a base de qualquer projeto de pesquisa !

Formatação tabelas de dados

Principais erros

  • Tratar programas de planilhas como caderno
    • anotações na margem
    • layout espacial de dados
    • campos para transmitir informações.

Computadores não veem as informações da mesma maneira que humanos

  • Poder dos computadores,
  • podemos gerenciar e analisar dados de maneiras muito mais eficazes
  • precisamos configurar nossos dados (os computadores são muito literais).

Organização

É extremamente importante configurar tabelas bem formatadas desde o início.

  • Pense bem antes de começar

Reprodutibilidade

Planilha inicial ≠ planilha final

Para reproduzir as análises:

  • Crie um novo arquivo com seus dados limpos ou analisados. Não modifique o conjunto de dados original ou você nunca saberá onde começou.

  • Registre as etapas que você realizou na sua limpeza, como faria em qualquer etapa de um experimento, em arquivo de texto simples armazenado na mesma pasta que o arquivo de dados. (Metadados)

Estrutura

As regras principais do uso de programas de planilha eletrônica para dados:

  • Coloque todas as suas variáveis em colunas - o que você está medindo, como “peso” ou “temperatura”.

  • Coloque cada observação em sua própria linha.

  • Não combine várias informações em uma só célula.

  • Mantenha os dados brutos - não o altere!

  • Exporte os dados limpos para um formato baseado em texto, como o formato CSV (valores separados por vírgula). Isso garante que qualquer pessoa possa usar os dados e é exigida pela maioria dos repositórios de dados.

A regra é clara !

Pontos chave

  • Nunca modifique seus dados brutos. Sempre faça uma cópia antes de fazer qualquer alteração.

  • Registre todos os seus passos para limpar seus dados em um arquivo de texto simples.

  • Organize seus dados de acordo com os princípios de dados organizados.

Problemas de formatação

Principais problemas

  • Usando várias tabelas
  • Usando várias guias
  • Não preenchendo zeros
  • Usando valores nulos problemáticos
  • Usando formatação para transmitir informações
  • Usando a formatação para tornar a folha de dados bonita
  • Colocar comentários ou unidades nas células
  • Inserindo mais de uma informação em uma célula
  • Usando nomes de campo problemáticos
  • Usando caracteres especiais em dados
  • Inclusão de metadados na tabela de dados

Usando várias tabelas

Usando várias guias (abas)

Não preenchendo zeros

Usando valores nulos problemáticos

[White, Ethan P., et al. “Nine simple ways to make it easier to (re) use your data.” Ideas in Ecology and Evolution 6.2 (2013).]

Usando formatação para transmitir informações

Usando a formatação para tornar a planilha ‘bonita’

Colocar comentários ou unidades nas células

Inserindo mais de uma informação em uma célula

Usando nomes de campo problemáticos

Usando caracteres especiais em dados

  • quebras de linha,
  • travessões

  • formatação
  • caracteres não-padrão sofisticados (como aspas à esquerda e à direita)
  • etc.

  • Ao exportar esses dados, podem ocorrer coisas perigosas, como:
    • linhas sendo cortadas ao meio
    • erros de codificação
  • Trate uma célula como se fosse um simples formulário da web que só pode conter texto e espaços.

Inclusão de metadados na tabela de dados

Pontos chave

  • Evite usar várias tabelas em uma planilha.
  • Evite espalhar dados em várias guias.
  • Registre zeros como zeros.
  • Use um valor nulo apropriado para registrar dados ausentes.
  • Não use a formatação para transmitir informações ou para deixar sua planilha bonita.
  • Coloque os comentários em uma coluna separada.
  • Registre as unidades nos cabeçalhos das colunas.
  • Inclua apenas uma informação em uma célula.
  • Evite espaços, números e caracteres especiais nos cabeçalhos das colunas.
  • Evite caracteres especiais em seus dados.
  • Grave metadados em um arquivo de texto simples separado.

Exportando dados

Salvando em arquivo de texto

Após formatar sua planilha segundo as regras que aprendemos hoje:

  1. Abra o arquivo com sua planilha.
  2. Clique em Arquivo > Salvar Como.
  3. Escolha o local onde você deseja salvar a pasta de trabalho.
  4. Clique na seta da caixa Salvar como tipo e escolha o tipo de texto ou formato de arquivo CSV desejado.

Texto (separado por tabulação)(.txt) ou CSV (separado por vírgula)(.csv)

Abrindo no bloco de notas

AGORA podemos ir ao

Mas, antes disso …

Vamos exercitar !

Exercício 1

dados

Você pode ver que existem três guias. Suponha que três estagiários conduziram a coleta de dados e os três registraram os dados à sua maneira. Agora você é a pessoa responsável por este projeto e quer poder começar a analisar os dados.

Identifique o que está errado nesta planilha.

Discuta com seus colegas as etapas necessárias para limpar as guias e colocá-las todas juntas em uma única planilha.

  • Importante Não se esqueça do nosso primeiro conselho: para criar um novo arquivo (ou guia) para os dados limpos, nunca modifique seus dados originais (brutos).

  • Depois de passar por este exercício, discutiremos o que havia de errado com esses dados e como você os corrigiria.

  • salve os todos os arquivos